10 resultados para Genoma

em AMS Tesi di Laurea - Alm@DL - Università di Bologna


Relevância:

20.00% 20.00%

Publicador:

Resumo:

L'analisi del DNA è una delle chiavi per la comprensione della vita e dei suoi funzionamenti. Le tecniche di sequenziamento di nuova generazione NGS permettono una analisi parallela di molte sequenze che hanno reso possibili i sequenziamenti di genomi interi e l'impiego di questi dati in una vasta gamma di studi. In questa tesi verranno descritte le principali tecniche di sequenziamento NGS. Per quanto riguarda il genoma umano si tratteranno alcune tematiche di studio di varianti affrontate dal gruppo 1000Genomes. Nella fase conclusiva si introdurranno definizioni di statistica utili nell'affrontare l'elaborazione dei dati. Inoltre vengono descritti alcuni strumenti che permettono di svolgere questo tipo di analisi.

Relevância:

10.00% 10.00%

Publicador:

Resumo:

L'innovazione delle tecnologie di sequenziamento negli ultimi anni ha reso possibile la catalogazione delle varianti genetiche nei campioni umani, portando nuove scoperte e comprensioni nella ricerca medica, farmaceutica, dell'evoluzione e negli studi sulla popolazione. La quantità di sequenze prodotta è molto cospicua, e per giungere all'identificazione delle varianti sono necessari diversi stadi di elaborazione delle informazioni genetiche in cui, ad ogni passo, vengono generate ulteriori informazioni. Insieme a questa immensa accumulazione di dati, è nata la necessità da parte della comunità scientifica di organizzare i dati in repository, dapprima solo per condividere i risultati delle ricerche, poi per permettere studi statistici direttamente sui dati genetici. Gli studi su larga scala coinvolgono quantità di dati nell'ordine dei petabyte, il cui mantenimento continua a rappresentare una sfida per le infrastrutture. Per la varietà e la quantità di dati prodotti, i database giocano un ruolo di primaria importanza in questa sfida. Modelli e organizzazione dei dati in questo campo possono fare la differenza non soltanto per la scalabilità, ma anche e soprattutto per la predisposizione al data mining. Infatti, la memorizzazione di questi dati in file con formati quasi-standard, la dimensione di questi file, e i requisiti computazionali richiesti, rendono difficile la scrittura di software di analisi efficienti e scoraggiano studi su larga scala e su dati eterogenei. Prima di progettare il database si è perciò studiata l’evoluzione, negli ultimi vent’anni, dei formati quasi-standard per i flat file biologici, contenenti metadati eterogenei e sequenze nucleotidiche vere e proprie, con record privi di relazioni strutturali. Recentemente questa evoluzione è culminata nell’utilizzo dello standard XML, ma i flat file delimitati continuano a essere gli standard più supportati da tools e piattaforme online. È seguita poi un’analisi dell’organizzazione interna dei dati per i database biologici pubblici. Queste basi di dati contengono geni, varianti genetiche, strutture proteiche, ontologie fenotipiche, relazioni tra malattie e geni, relazioni tra farmaci e geni. Tra i database pubblici studiati rientrano OMIM, Entrez, KEGG, UniProt, GO. L'obiettivo principale nello studio e nella modellazione del database genetico è stato quello di strutturare i dati in modo da integrare insieme i dati eterogenei prodotti e rendere computazionalmente possibili i processi di data mining. La scelta di tecnologia Hadoop/MapReduce risulta in questo caso particolarmente incisiva, per la scalabilità garantita e per l’efficienza nelle analisi statistiche più complesse e parallele, come quelle riguardanti le varianti alleliche multi-locus.

Relevância:

10.00% 10.00%

Publicador:

Resumo:

Nella seguente tesi sono stati affrontati differenti protocolli di purificazione di componenti della DNA polimerasi III di Escherichia coli, previamente sovraespressi nel microrganismo. A distanza di oltre 20 anni dall’identificazione della DNA polimerasi III quale enzima responsabile della replicazione del genoma di E. coli, sono stati fatti progressi riguardo la sua conoscenza. Tuttavia molti sono gli aspetti rimasti incogniti riguardo al meccanismo d’azione dell’enzima, così come il ruolo svolto dalle sue subunità e parte della loro struttura. Al fine di migliorare la comprensione di questo enzima, è necessario insistere sulla diffrattometria di raggi X, per la quale è indispensabile l’isolamento di cristalli delle proteine. Si intuisce la necessità di sviluppare metodi appropriati che consentano di ottenere una resa il più possibile elevata dei suoi componenti. Una metodica generale per la sovraespressione del core catalitico e della singola subunità α, deputata all’attività polimerasica a carico di entrambi i filamenti di DNA, era già stata perfezionata presso il laboratorio ospitante. Con il presente lavoro sono stati sperimentati alcuni procedimenti, volti ad aumentare la resa di purificazione, adottando differenti soluzioni. In primo luogo, si è cercato di recuperare le proteine contenute nel flow through eluito da una colonna cromatografica Q-Sepharose, alla quale non erano riuscite a legarsi durante il primo stadio di purificazione. Inoltre, sono stati sperimentati metodi alternativi di lisi cellulare di estrazione delle proteine. In sintesi, il contenuto della tesi potrebbe agevolare la valutazione di diverse strategie per incrementare la resa di purificazione della subunità α e del core polimerasico della DNA Polimerasi III di E. coli.

Relevância:

10.00% 10.00%

Publicador:

Resumo:

Questa tesi si inserisce nell'ambito delle analisi statistiche e dei metodi stocastici applicati all'analisi delle sequenze di DNA. Nello specifico il nostro lavoro è incentrato sullo studio del dinucleotide CG (CpG) all'interno del genoma umano, che si trova raggruppato in zone specifiche denominate CpG islands. Queste sono legate alla metilazione del DNA, un processo che riveste un ruolo fondamentale nella regolazione genica. La prima parte dello studio è dedicata a una caratterizzazione globale del contenuto e della distribuzione dei 16 diversi dinucleotidi all'interno del genoma umano: in particolare viene studiata la distribuzione delle distanze tra occorrenze successive dello stesso dinucleotide lungo la sequenza. I risultati vengono confrontati con diversi modelli nulli: sequenze random generate con catene di Markov di ordine zero (basate sulle frequenze relative dei nucleotidi) e uno (basate sulle probabilità di transizione tra diversi nucleotidi) e la distribuzione geometrica per le distanze. Da questa analisi le proprietà caratteristiche del dinucleotide CpG emergono chiaramente, sia dal confronto con gli altri dinucleotidi che con i modelli random. A seguito di questa prima parte abbiamo scelto di concentrare le successive analisi in zone di interesse biologico, studiando l’abbondanza e la distribuzione di CpG al loro interno (CpG islands, promotori e Lamina Associated Domains). Nei primi due casi si osserva un forte arricchimento nel contenuto di CpG, e la distribuzione delle distanze è spostata verso valori inferiori, indicando che questo dinucleotide è clusterizzato. All’interno delle LADs si trovano mediamente meno CpG e questi presentano distanze maggiori. Infine abbiamo adottato una rappresentazione a random walk del DNA, costruita in base al posizionamento dei dinucleotidi: il walk ottenuto presenta caratteristiche drasticamente diverse all’interno e all’esterno di zone annotate come CpG island. Riteniamo pertanto che metodi basati su questo approccio potrebbero essere sfruttati per migliorare l’individuazione di queste aree di interesse nel genoma umano e di altri organismi.

Relevância:

10.00% 10.00%

Publicador:

Resumo:

Scopo della modellizzazione delle stringhe di DNA è la formulazione di modelli matematici che generano sequenze di basi azotate compatibili con il genoma esistente. In questa tesi si prendono in esame quei modelli matematici che conservano un'importante proprietà, scoperta nel 1952 dal biochimico Erwin Chargaff, chiamata oggi "seconda regola di Chargaff". I modelli matematici che tengono conto delle simmetrie di Chargaff si dividono principalmente in due filoni: uno la ritiene un risultato dell'evoluzione sul genoma, mentre l'altro la ipotizza peculiare di un genoma primitivo e non intaccata dalle modifiche apportate dall'evoluzione. Questa tesi si propone di analizzare un modello del secondo tipo. In particolare ci siamo ispirati al modello definito da da Sobottka e Hart. Dopo un'analisi critica e lo studio del lavoro degli autori, abbiamo esteso il modello ad un più ampio insieme di casi. Abbiamo utilizzato processi stocastici come Bernoulli-scheme e catene di Markov per costruire una possibile generalizzazione della struttura proposta nell'articolo, analizzando le condizioni che implicano la validità della regola di Chargaff. I modelli esaminati sono costituiti da semplici processi stazionari o concatenazioni di processi stazionari. Nel primo capitolo vengono introdotte alcune nozioni di biologia. Nel secondo si fa una descrizione critica e prospettica del modello proposto da Sobottka e Hart, introducendo le definizioni formali per il caso generale presentato nel terzo capitolo, dove si sviluppa l'apparato teorico del modello generale.

Relevância:

10.00% 10.00%

Publicador:

Resumo:

Lo scopo di questa tesi è quello di evidenziare, attraverso varie analisi statistiche ed applicazione di modelli stocastici, il comportamento strutturale e funzionale dei dinucleotidi che compongono le sequenze di DNA di diversi organismi. Gli organismi che abbiamo scelto di prendere in considerazione sono l'uomo, il topo e l'Escherichia coli. Questa scelta non è stata casuale, ma oculata, al fine di mettere in risalto alcune differenze tra organismi eucarioti, quali l'uomo e il topo, ed organismi procarioti come il batterio E.coli. Nella prima parte del nostro studio, abbiamo computato le distanze che intercorrono tra occorrenze successive dello stesso dinucleotide lungo la sequenza, usando un metodo di non sovrapposizione, ed abbiamo iterato il calcolo per tutti i 16 dinucleotidi. Dopodiché ci siamo preoccupati di graficare le distribuzioni di distanza dei 16 dinucleotidi per l'E.Coli, il topo e l'uomo; gli istogrammi evidenziano un comportamento anomalo della distribuzione di CG che accomuna gli organismi eucarioti e di cui, invece, è esente l'organismo procariote esaminato. Questo dato statistico trova una spiegazione nei processi biologici di metilazione che possono innescarsi sul dinucleotide CG nelle sequenze eucariotiche. In seguito, per determinare quanto ciascuna delle 16 distribuzioni si discosti dalle altre abbiamo usato la divergenza di Jensen-Shannon. Per quantificare le differenze sostanziali tra le distribuzioni di CG dei 3 organismi considerati abbiamo deciso di verificare quale fosse il miglior fit per tali curve tra un esponenziale ed una power-law. L'esponenziale rappresenta un buon fit per le code delle distribuzioni di CG del topo e dell'uomo; ciò rivela la presenza di una lunghezza caratteristica per entrambi gli organismi. Nella seconda parte dello studio, i risultati vengono confrontati con modelli markoviani: sequenze random generate con catene di Markov di ordine zero (basate sulle frequenze relative dei nucleotidi) e uno (basate sulle probabilità di transizione tra diversi nucleotidi). Quest'ultima riproduce abbastanza fedelmente la sequenza biologica di partenza, per cui abbiamo scelto di utilizzare la catena Markov del 1° ordine per altre analisi statistiche riguardanti le distribuzioni dei nucleotidi, dinucleotidi, ed anche dei trinucleotidi con particolare interesse per quelli in cui è contenuto CG, in modo da verificare se l'anomalia si ripercuote anche in essi. Riteniamo pertanto che metodi basati su questo approccio potrebbero essere sfruttati per confermare le peculiarità biologiche e per migliorare l'individuazione delle aree di interesse, come le isole CpG, ed eventualmente promotori e Lamina Associated Domains (LAD), nel genoma di diversi organismi.

Relevância:

10.00% 10.00%

Publicador:

Resumo:

Le ammine biogene sono il prodotto della decarbossilazione degli amminoacidi da parte di enzimi microbici. Tra essi vi è la tirosina decarbossilasi, caratterizzata dalla possibilità di utilizzare, in assenza di tirosina, la fenilalanina, ottenendo la 2-feniletilamina. In particolare, la tiramina è responsabile della comparsa di importanti sintomi tossicologici, raggruppati con il termine “cheese reaction”. In questa sperimentazione sono stati presi in considerazione 2 ceppi di Enterococcus mundtii (C46 e C53) coltivati in BHI in presenza o assenza di tirosina per caratterizzarne l’attività decarbossilasica. Sono state monitorate la crescita microbica, mediante densità ottica e la produzione di tiramina e 2-feniletilamina mediante tecnica HPLC. Dai risultati ottenuti è emerso che entrambi i ceppi producono tiramina sia in presenza che in assenza del precursore. La concentrazione massima rilevata per il ceppo C46 è stata di 797 mg/l e 767 mg/l per C53. È inoltre emerso che essi possono decarbossilare la fenilalanina, ma solo dopo 8 e 24 ore di incubazione per il ceppo C46 e C53. Per quanto concerne la crescita, entrambi i ceppi hanno raggiunto il massimo valore di densità ottica dopo 6-8 ore a 37°C, con una durata della fase lag ridotta, seguita da un rapido aumento della densità ottica. Non sono state riscontrate differenze significative in termini di massima densità ottica raggiunta (A) e durata della fase lag (λ) tra i due ceppi, mentre C53 ha presentato valori inferiori per quanto riguarda la velocità incremento della densità ottica in fase esponenziale (µmax). Dagli studi genici è emerso che l’organizzazione dell’operone dei ceppi considerati corrisponde con quella filogeneticamente riconosciuta per il genere Enterococcus, ma nonostante la similarità, l’operone manca del gene codificante per l’antiporto Na+/H+. È stata inoltre evidenziata nel genoma dei ceppi considerati un’altra regione che contiene geni codificanti per un ulteriore sistema decarbossilasico.

Relevância:

10.00% 10.00%

Publicador:

Resumo:

Il passo preliminare del presente elaborato è quello di mettere a punto un metodica solida e riproducibile per la sovraespressione della subunità α di D. radiodurans per via eterologa. L’ospite ideale per realizzare la sovraespressione è E. coli, microorganismo ampiamente discusso e impiegato per via della sua semplice manipolazione. Per realizzare la sovraespressione il ceppo di E. coli prescelto è stato trasformato con il plasmide pBAD-dnaE e la proteina in esame è stata ottenuta come corpi di inclusione (biologicamente inattiva). Successivamente alla fase di rinaturazione e alla purificazione tramite cromatografia liquida dell’enzima è stato possibile ottenere quantità sufficienti di proteina pura e biologicamente attiva con la quale condurre saggi spettrofotometrici di attività enzimatica per valutare il comportamento dell’enzima in vitro simulando le condizioni di substrato attese in vivo. È proprio in quest’ultimo frangente che si condensa lo scopo di questo lavoro. La conduzione dei saggi di attività enzimatica in condizioni ricombinative e non ricombinative (quindi in presenza o meno di RecAEc nell’ambiente di reazione) ci ha consentito di comprendere meglio il comportamento della pol III-α durante la fase di strand invasion mediata dalla ricombinasi e la successiva sintesi del neofilamento, contribuendo a chiarire alcuni aspetti dei meccanismi che intervengono lungo la via di riparazione del genoma danneggiato in D. radiodurans ancora poco discussi. Inoltre l’elaborazione di un sistema di espressione per la singola subunità α getterebbe le basi per sviluppare un sistema di co-espressione più complesso ove siano coinvolte anche altre subunità dell’oloenzima (τ-δ-δ’), in modo da poter verificare la tipologia di subassemblaggio che spontaneamente avverrebbe in vivo e gli stimoli relativi tra le diverse subunità che ne migliorerebbero l’efficienza.

Relevância:

10.00% 10.00%

Publicador:

Resumo:

Negli ultimi anni la biologia ha fatto ricorso in misura sempre maggiore all’informatica per affrontare analisi complesse che prevedono l’utilizzo di grandi quantità di dati. Fra le scienze biologiche che prevedono l’elaborazione di una mole di dati notevole c’è la genomica, una branca della biologia molecolare che si occupa dello studio di struttura, contenuto, funzione ed evoluzione del genoma degli organismi viventi. I sistemi di data warehouse sono una tecnologia informatica che ben si adatta a supportare determinati tipi di analisi in ambito genomico perché consentono di effettuare analisi esplorative e dinamiche, analisi che si rivelano utili quando si vogliono ricavare informazioni di sintesi a partire da una grande quantità di dati e quando si vogliono esplorare prospettive e livelli di dettaglio diversi. Il lavoro di tesi si colloca all’interno di un progetto più ampio riguardante la progettazione di un data warehouse in ambito genomico. Le analisi effettuate hanno portato alla scoperta di dipendenze funzionali e di conseguenza alla definizione di una gerarchia nei dati. Attraverso l’inserimento di tale gerarchia in un modello multidimensionale relativo ai dati genomici sarà possibile ampliare il raggio delle analisi da poter eseguire sul data warehouse introducendo un contenuto informativo ulteriore riguardante le caratteristiche dei pazienti. I passi effettuati in questo lavoro di tesi sono stati prima di tutto il caricamento e filtraggio dei dati. Il fulcro del lavoro di tesi è stata l’implementazione di un algoritmo per la scoperta di dipendenze funzionali con lo scopo di ricavare dai dati una gerarchia. Nell’ultima fase del lavoro di tesi si è inserita la gerarchia ricavata all’interno di un modello multidimensionale preesistente. L’intero lavoro di tesi è stato svolto attraverso l’utilizzo di Apache Spark e Apache Hadoop.

Relevância:

10.00% 10.00%

Publicador:

Resumo:

Nella Tesi viene riportata l’analisi genetica di un campione di 128 famiglie con Disturbo dello Spettro Autistico, tramite il sistema di SNP array “PsychArray” (Illumina ), contenente oltre 500.000 sonde sull’intero genoma. Questi dati sono stati utilizzati per individuare Copy Number Variants (CNVs) rari e rilevanti da un punto di vista clinico. Sono stati quindi selezionati tre CNVs per un ulteriore approfondimento: due microdelezioni già descritte come patologiche (rispettivamente nella regione 1p36.32 e 22q13.33 comprendente il gene SHANK3) sono risultate essere “de novo”, mentre una terza microdelezione nel gene CTNNA3 è ereditata dalla madre. Tutti e tre i CNV sono stati validati tramite Real Time-PCR, definendone i confini. Per quanto riguarda la microdelezione in CTNNA3, poiché difetti di questo gene sono stati implicati nell’autismo con un meccanismo recessivo, è stata anche condotta un’analisi di sequenza di tutti gli esoni del gene negli individui della famiglia interessata, al fine di ricercare eventuali mutazioni puntiformi sull’allele non deleto. Questa analisi non ha individuato nessuna variante potenzialmente dannosa, pertanto il difetto in CTNNA3 non risulta essere la causa principale del fenotipo autistico in questa famiglia, anche se potrebbe avere un ruolo come fattore di suscettibilità.